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目前 已 


进入 常规 观测 ， 必 将 产生 海量 的 观测 数据 。 针 对 日 像 仪 需要 高 


据 并 提供 高 效 检索 服务 的 需求 ， 负 数据 库 管理 


负数 据 库 的 接口 设计 与 实现 ， 并 通过 实验 验证 了 所 设计 接口 的 有 效 性 和 性 能 。 负 数据 库 
理 系 统 不 仅 可 以 有 效 解决 其 面临 的 问题 ， 也 可 以 为 新 一 代 望 远 镜 负数 据 库 管 理 系统 提供 


考 
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效 管理 其 产生 的 海量 观测 


系统 提出 并 被 应 用 到 日 像 仪 中 。 详 细 介 2 


me g A 
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明 安 图 射电 频谱 


研制 的 新 一 代 有 具有 高 时 间 、 高 空间 、 高 频率 分 辨 率 的 对 太阳 进行 射 : 
望远镜 设备 ， 观 测 频率 范围 为 0. 4GHz-15GHz 中 。 明 安 图 射电 频谱 日 像 仪 


日 像 仪 (MingantU SpEctral Radioheliograph, MUSER) 是 中 国 自行 


旺 频谱 成 像 的 专用 射电 


低频 阵 (MUSER- 


D 和 高 频 阵 〈MUSER-II) 两 个 子 阵 构成 。 低 频 阵 由 40 面 4.5 m 口 径 的 抛物 面 天 线 及 接收 


设备 组 成 ， 在 64 个 频 点 上 成 像 , 工作 频率 为 0. 46Hz 2GHz; 高 频 阵 由 60 面 2 m 
面 天 线 及 接收 设备 组 成 ， 在 528 个 频 点 上 成 像 , ] 
的 数字 接收 机 每 3. 125 ms 产生 一 个 数据 帧 ， 并 通过 1. 25 Gb 的 光纤 传送 到 数据 获取 


低频 阵 和 高 频 阵 数据 帧 的 大 小 分 别 为 100000B、204800B。 


随 着 明 安 图 射电 频谱 日 像 仪 进 


口径 的 抛物 


[ 作 频 率 为 2GHz`15GHz 。 低 频 阵 和 高 频 阵 


服务 器 。 


入 常规 观测 ， 将 产生 海量 的 观测 数据 。 如 果 每 个 观测 日 


有 10 小时， 理论 上 ， 每 个 观测 日 产生 2. 304 千 万 个 观测 数据 帧 ， 总 共 3. 5112TB 的 观测 数 


管理 系统 〔( 负 数据库 
以 提高 检索 性 能 。 

考虑 到 除了 明 安 
求 ， 


图 射电 频谱 日 像 仪 以 外 ， 其 他 望 
必要 介绍 负数 据 库 中 的 接口 设计 与 实现 的 介绍 。 本 文 


据 , 每 年 有 365 个 观测 日 的 情况 下 将 产生 将 近 84. 1 亿 个 观测 数据 帧 和 将 近 1. 3PB 的 观测 数 
据 。 文 [2 基于 补 集 理论 和 明 安 图 射电 频谱 日 像 仪 的 数据 特征 设计 了 一 个 高 性 能 的 海量 数据 
) ， 不 仅 可 以 用 较 少 的 存储 量 来 存储 海上 
然而 ， 文 [2] 没 有 详细 介 


数据 帧 中 的 元 数据 ， 而 且 可 
负数 据 库 中 的 接口 设计 与 实现 。 


远 镜 也 有 类 人 


ERS 


以 的 海量 历史 数据 管理 需 


MUSER 负数 据 库 接口 


的 设计 和 实现 ， 进 而 为 天 文 领域 其 他 开源 系统 的 海量 数据 管理 提供 一 个 有 价值 的 参考 。 


1 负数 据 库 简 介 


文 [3] 在 2004 年 首次 将 存储 所 有 原始 记录 信息 的 数据 库 称 为 正 数据 库 (the Positive 


Database) ， 存 储 通过 补 集 理论 从 所 有 
库 称 为 负数 据 库 (the Negative Databa 


库 是 可 行 的 ， 反 之 是 


representation) 是 一 种 受 人 工 免疫 系统 启发 而 来 的 新 的 数 所 


个 NP 


完全 问题 。 


原始 记录 信息 中 


TRAS 


RAE A BI EHATE IR RS ia 


文 [4 在 2005 年 提出 


se) ， 且 证 明了 从 一 个 给 定 的 正 数据 库 生 成 负数 据 
FAKIR (the negative 
四 表示 方法 ， 该 方法 与 传统 表 


示 方 法 最 大 的 区 别 在 于 负 表 示 总 是 存储 
始 数据 信息 ， 同 时 指出 负数 据 库 是 信息 负 表示 的 一 种 存储 形式 。 在 随后 的 2006 年 ， 信 息 负 
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多 式 来 代替 存储 原 


AFI 


表示 的 思想 被 应 用 到 调查 方面 并 提出 了 负 调 查 的 方法 ， 该 方法 能 够 达到 保护 被 调查 者 隐私 
信息 的 目的 '。 文 [5] 利 用 负数 据 库 的 思想 提出 一 种 安全 保护 算法 ， 使 用 该 算法 能 够 为 通用 
的 正 数据 库 提供 一 个 额外 的 安全 保护 层 。 文 [6] 将 负数 据 库 的 思想 应 用 于 构建 生物 特征 数据 
库 ， 基 于 负数 据 库 思想 的 生物 特征 数据 库 能 够 达到 保护 数据 隐私 的 作用 。 文 [7] 利 用 负数 据 
库 的 思想 实现 了 一 个 基于 网 络 环境 的 数据 管理 系统 ， 该 系统 能 够 提供 更 高 级 别 的 数据 安全 。 

上 述 文献 涉及 的 负数 据 库 主 要 应 用 在 隐私 保护 和 数据 安全 领域 ， 且 从 负数 据 库 推导 出 
正 数据 库 是 一 个 NP 完全 问题 。 然 而 ， a e aa 
低 存 储 海量 数据 帧 的 元 数据 所 需 的 存储 容量 ， 能 够 从 检索 的 补 集 信息 中 快速 推导 数据 
帧 对 应 的 元 数据 信息 。 


2 接口 设计 与 实现 


进一步 完善 了 负数 据 库 原 型 系统 的 功能 ， 并 在 此 基础 之 上 抽象 了 负数 据 库 的 接口 。 进 
而 方便 通过 修改 少量 的 代码 就 可 以 将 明 安 图 射电 频谱 日 像 仪 的 负数 据 库 系统 移植 或 集成 到 
ee ee ee 补 集 
里 论 和 记录 格式 的 基础 上 ， 着 重 介 绍 负数 据 库 的 一 些 重 要 接口 的 设计 与 实现 。 
= 2. 1 明 安 图 射电 频谱 日 像 仪 的 数据 特征 
> 当前 的 数据 存储 系统 是 按照 目录 、 文 件 以 及 数据 帧 的 形式 组 织 数 据 。 所 有 的 观测 数据 
©) 以 文件 的 形式 存储 在 系统 中 ， 即 低频 阵 和 高 频 阵 的 文件 分 别 存 放 在 不 同 的 目录 中 。 每 分 钟 
>, 观测 产生 的 19200 个 连续 的 数据 帧 封装 到 一 个 文件 中 ， 观 测 日 期 、 观 测 时 间 、 波 段 、 极 化 
方式 、 可 见 度数 据 、 自 相关 数据 等 信息 封装 到 数据 帧 中 。 文 件 名 是 根据 文件 中 第 1 个 数据 
帧 的 观测 日 期 时 间 以 “YYYYMMDDhhmm” (YYYY: 年 ，MM: 月 ，DD: 日 ，hh: 时 ，mm: 分 ) 的 格式 
命名 。 
由 于 受 当前 存储 系统 性 能 的 限制 ， 将 观测 数据 帧 写 入 磁盘 时 会 随机 丢失 数据 帧 ， 这 无 
法 保证 封装 到 同一 个 文件 中 的 19200 个 数据 帧 在 同一 分 钟 内 。 并 且 ， 开 始 观测 按钮 是 由 人 
oa 工 启动 的 ， 无 法 保证 在 整 分 整 秒 恰好 启动 观测 按钮 。 上 述 两 种 情况 导致 同一 分 钟 观 测 产生 
al 的 数据 帧 被 存储 到 两 个 数据 文件 中 。 
a 2. 2 补 集 理论 
-一 假定 已 知 全 集 U， 数 据 集 A， 且 数据 集 C 是 数据 集 A 的 补 集 。 负 数据 库 管理 系统 基于 如 
下 假设 : (1) 全 集 U 已 知 ， 且 可 以 被 精确 定义 ; (2)〉 所 有 的 记录 可 以 通过 给 定 的 初始 化 
l 条 件 推导 ; (3) 数据 集 A 可 以 从 它 的 补 集 C 中 推导 。 依 据 补 集 理论 设计 的 明 安 图 射电 频谱 
一 - 日 像 仪 的 负数 据 库 管 理 系统 可 以 通过 存储 少量 的 丢 帧 信息 并 利用 大 量 的 逻辑 推导 运算 保证 
-和 不 会 丢失 任何 已 保存 在 文件 中 的 数据 帧 元 数据 信息 。 

2. 3 记录 格式 


TH SN 


设计 一 种 记录 格式 表示 数据 文件 、 观 测 日 期 时 间 以 及 数据 帧 之 间 的 逻辑 关系 。 为 了 方 
EROR, H Record 表示 该 记录 格式 ，Record 的 具体 格式 如 1 图。 
Record 


MMddhhmm tmeF timeL 


的 


yyyyMMddhhmmssffffff S_B PE CA,",S BPE CA 
1 记录 格式 
Fig. 1 The record format 
Record 由 datetime, filel 和 file2 构成 。datetime 由 年 C(yyyy) . A M). H 
Cdd) ~ AY Chh) 、 分 (m) 构成 。filel 由 文件 名 (filename) 、 文 件 中 第 一 帧 的 时 间 
(timeF) 、 文 件 中 最 后 一 帧 的 时 间 (timeL) 、 文 件 内 帧 的 逻辑 关系 (FramneR) 构成 。 


1'https://arxiv.org/pdf/math/0608176.pdf 


529v1 


45.00 


I 
到 


timeF FI timeL 的 格式 一 样 ， 由 


(mm) 、 秒 Css) 、 


2.4 接口 设计 与 实现 
基于 上 述 的 明 安 图 


毫秒 (ffffff) 构成 。 文 从 
始 偏 移 量 对 应 数据 帧 的 波段 CB) 、 
以 及 累计 丢 帧 数 CCA) 描述 。 


射电 频谱 日 像 仪 数据 特征 、 补 集 
录 格 式 ， 本 文 为 明 安 图 射电 频谱 


年 (yyyy) 、 月 


q2 相应 的 接口 和 类 


CMM) 、 
F 内 帧 的 逻辑 关系 通过 开始 偏 移 量 (S，、 开 
开始 偏 移 量 对 应 数据 帧 的 极 化 CP) ) 


ChinaXiv 合 


H Cdd) ~ 


时 Chh) 、 分 


结束 偏 移 量 CE 


Fig. 2 The related interface and class 


这 些 接口 函数 和 类 主要 
数据 帧 信 
镜 数据 文件 操作 有 


ARAN 


o 


DA Be IE PZ IEE E E E o 


于 从 观测 数据 文件 构造 特定 格式 
负数 据 库 主 要 包括 底 


口 等 同时 ，MUSER 的 负数 据 库 接 
分 的 相互 依赖 ， 
高 系统 的 可 维护 性 和 可 扩展 性 。 


接口 、 数 据 库 同 步 〈 初 始 化 ) 接 


理论 以 及 为 数据 特征 设计 
像 仪 的 负数 据 库 设计 了 相应 的 接口 函数 和 类 ， 如 图 2。 


的 特定 记 


的 记录 、 从 数据 记录 推导 相应 的 
层 数 据 库 可 用 性 校 验 接口 、 望 远 
、 数 据 检索 接口 、 元 数据 重 构 接 


提高 组 成 单 


0 een ee 


底层 数据 库 可 用 性 校 验 接 口 (validate underlying database availability) 
了 对 MySQL、Redis 这 两 个 数据 库 的 支持 ， 


在 以 后 的 工作 中 


底层 数据 库 可 用 性 校 验 接口 主要 用 于 验证 底层 数据 库 配置 文件 


口 设 计 与 实现 在 一 定 程度 上 遵守 Python DB-API 规范 2， 
元 的 内 聚 性 ， 


降低 组 成 单元 间 的 耦合 程度 ， 


只 提供 
逐渐 增加 对 其 他 数据 库 的 文 持 。 

(db_config. xml) 中 的 底层 数 
与 数据 库 连 接 相 关 的 配置 信息 是 


据 库 是 否 支持 、 底 层 数 据 库 对 应 的 模块 是 否 安装 以 及 其 它 
SRS RTE EE 的 伪 代 码 如 图 3。 
3 底层 数据 库 可 用 性 校 验 接 

Fig. 3 EE database availability validation interface 


2.4.2 望远镜 数据 文件 操作 有 关 的 接口 
望远镜 数据 文件 操作 有 关 的 
(MUSEROS?) 中 的 muserdata. py 实现 ， 


进行 操作 。 望 远 镜 数 据 文件 操作 有 关 的 接口 (图 4) 主要 包括 给 定 帧 序 定位 帧 位 置 子 接口 、 
获取 数据 帧 中 观测 日 期 时 间 等 元 数据 的 子 接口 、 
据 文 件 的 子 接口 以 及 跳跃 特定 数目 帧 的 子 接口 等 。 数 据 库 
心 接口 的 功能 都 严重 依赖 望远镜 数据 文件 操作 有 关 的 接口 。 


数据 库 同步 〈 初 始 化 ) 接口 主要 提供 


到 底层 数据 库 等 功能 
射电 频谱 


2.4.4 数据 检索 接口 


目前 的 数据 检索 接口 只 提供 了 依据 给 定 的 开始 查 


时 间 ¢ Tend ls 
能 还 有 待 进 


poner 


步 完 善 。 


数据 检索 接口 的 实现 伪 代 码 如 图 


接口 主要 基于 明 安 图 射电 频谱 日 像 仪 数 据 处 理 
主要 提供 对 MUSER 特有 的 裸 数 据 文件 (RawData™ ) 


系统 


打开 观测 


图 4 数据 文件 操作 接 


数据 文件 的 子 接口 、 关 闭 观测 数 
同步 接口 以 及 数据 检索 接口 等 核 


Fig. 4Data file operation interface 


2.4.3 数据 库 同 步 (初始 化 接口 


接口 的 实现 
个 核心 接口 。 
图 5 数据 库 初 始 化 接 


首次 将 初始 化 数据 库 以 及 后 来 定期 从 新 增 的 观测 
数据 文件 中 提取 的 构造 记录 所 需 的 相关 元 数据 、 利 用 相关 元 数据 构造 记录 以 及 将 记录 存储 
。 数 据 库 同步 《初始 化 ) 
日 像 仪 负数 据 库 的 一 


伪 代 码 如 图 5， 该 接口 是 明 安 图 


Fig. 5 Database initialization interface 


询 日 期 时 间 (Tswart》、 


结束 查询 日 期 


以 及 极 化 方式 下 的 数据 检索 功能 ， 


其 他 更 加 复杂 条 件 的 数据 检索 功 


6， 该 接口 也 是 负数 据 库 中 的 一 个 


核心 接口 。 同 时 ， 数 据 检索 接口 还 调用 了 元 数据 重 构 函 数 (refactor_frame_metadata) 、 


将 Tstart 及 Tena 转 换 


成 起 止 查询 帧 范围 


(convert filter start end index) 等 接口 函数 。 


Fig. 6 The pseudocodes for the da 


3 接口 有 效 性 验证 


图 6 数据 检索 接 


的 伪 代 码 


2http://delivery.acm.org/10.1145/330000/327384/a8-kuchling.html 
3*https://github.com/astroitlab/museros/ 


C IndexS, IndexE ) 的 转换 函数 


a retrievalinterface 


本 文 测试 设计 的 明 安 图 射电 频谱 日 
24 核 Xeon(R) E5-2620 v2 @2. 10GHz 处 
Cent0S7. 4、Python2. 7; 数据 库 为 : 


Redi 


像 仪 负数 据 库 接口 的 性 能 使 用 的 硬件 
里 器 、64 GB DDR3 内 存 、 
s 4.0、MySQL 5.7; 


环境 为 : Intel 
6TB 人 硬盘， 软件 环境 为 : 
测试 数据 为 : MUSER-II 进行 


常规 观测 产生 的 400 个 观测 数据 文件 (1572 GB) 、 低 频 阵 进行 日 常 观测 产生 的 400 个 观测 


数据 文件 (768 GB) 。 
本 文 主要 在 目 

化 接口 以 及 数据 检索 接口 的 性 能 。 

3. 1 数据 库 同步 《初始 化 ) OER 
为 了 保证 数据 库 初 


1000 次 ， 并 将 测试 结果 的 平均 值 作为 测试 结果 。 


前 支持 的 Redis VA MySQL JE 


测试 


层 数据 库 的 基础 之 上 测试 设计 的 数据 初始 


台 化 接口 性 能 测试 的 有 效 性 ， 对 数据 库 初 始 化 的 实验 重复 进行 了 
测试 得 到 的 数据 库 初 始 化 的 平均 时 间 对 比 


见 图 7。 对 于 相同 的 观测 数据 文件 ， 基 于 内 存 的 Redis 数据 库 初 始 化 速度 比 MySQL 略微 快 ; 


对 于 不 同 的 观测 数据 文件 ， 
3.2 数据 检索 接口 性 能 测试 
分 别 测试 了 从 数据 库 中 分 别 检索 1、 


8、80、 


同时 为 了 保证 数据 检索 响应 时 间 的 有 效 性 和 精 硬 
000 次 并 将 测试 结果 的 平均 响应 时 间作 为 测试 结果 。 
8。 对 于 相同 的 数据 ， 基 于 内 存 Redis 


间 对 比 见 图 
据 库 快 2 到 


6 倍 。 对 于 低频 阵 和 高 频 阵 ， 


据 库 检 索性 能 恶化 得 更 快 。 


上 相同 。 随 着 检索 数据 帧 的 增加 ， 基 于 MySQL 上 


MySQL(MUSER-I) 
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54.233 


数据 量 大 的 高 频 阵 的 速度 比 数据 量 小 的 低频 阵 的 略 慢 。 


160, 320, 640 个 连续 数据 帧 的 响应 时 间 。 
外 性， 对 每 种 数据 检索 操作 重复 进行 100 


测试 后 得 到 的 数据 检索 的 平均 响应 时 


的 负数 据 库 检 索性 能 比 基 于 MySQL 的 负数 
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图 7 数据库 初始 化 性 


使 用 相同 底层 数据 库 的 负数 据 库 的 检索 性 能 基本 
的 负数 据 库 的 检索 性 能 比 基 于 


Redis 的 负数 


Redis(MUSER- 1) 
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Fig. 7Database initialization performance 
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图 8 数据 检索 性 能 


Fig. 8Data retrieval performance 


结束 语 


本 文 简要 介绍 了 明 安 图 射电 频谱 日 像 仪 负数 据 库 管理 系统 中 涉及 的 理论 基础 以 及 记录 
格式 ， JEPEN E T SUBIRE TEHER ANETTE SED, EREET RRIS 
的 接口 具有 较 好 的 鲁 棒 性 、 通 用 性 以 及 有 效 性 。 但 是 ， 由 于 负数 据 库 设 计 的 初衷 是 解决 明 
安 图 射电 频谱 日 像 仪 面临 的 海量 数据 管理 问题 数据 存储 使 用 其 特有 的 裸 数 据 文件 格式 ， 
而 不 是 通用 的 UVFITS、FITS-IDI 等 其 他 通用 的 文件 格式 ， 所 以 负数 据 库 接口 的 通用 性 和 可 
移植 性 还 有 待 进一步 验证 。 同 时 ， 明 安 图 射电 频谱 日 像 仪 负数 据 库 中 的 接口 还 需要 进一步 
完善 。 本 文 的 研究 成 果 可 以 为 其 它 新 一 代 望 远 镜 系 统 的 数据 管理 提供 一 个 有 价值 的 参考 。 
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Abstract:The MingantU SpEctral Radioheliograph (MUSER) has entered the stage of 
routine observation and will generate massive observation data. How to 
effectively manage and query massive observation data has become a critical and 
urgent problem for the MUSER. A negative database management system for the 
MUSER is used to solve the mentioned problem. In this paper, we have introduced 
the design and implementation of the MUSER negative database interfaces in 
detail. Meanwhile, the system can not only solve the problem of the MUSER 
effectively, but also provide a valuable reference for the next-generation 
telescope system. 
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